メインコンテンツまでスキップ

🧠 2-3 o1の推論能力

2-5 OpenAIの最新モデル「o1」:推論能力

2024年10月3、4日に開催されたSoftBank World 2024で、孫正義氏がOpenAIの最新モデル「o1」の驚異的な能力を紹介し、大きな話題を呼びました。特に、「1000万円を1億円にする方法」という質問への回答は、o1の高度な推論能力を示す象徴的な事例となりました。この o1、一体何がすごいのでしょうか?

動画 <SoftBank World 2024 孫 正義 特別講演 超知性が10年以内に実現する>


🔑 o1とは?

o1 は、複雑な問題解決に特化した LLM です。人間のように深く考え、多角的に検討してから回答を生成するため、回答まで数十秒かかる場合もあります。その名前は、OpenAI の "o" と、新たな能力レベルを象徴する "1" に由来し、「オーワン」と読みます。
現在利用可能なモデルは以下の2種類です:

  • o1-preview: 汎用的で複雑な推論が可能なモデル
  • o1-mini: STEM (科学、技術、工学、数学) に特化したモデル

従来の言語モデルとの違い

従来の言語モデルは、大量のテキストデータを学習し、そのデータに基づいて文章生成、翻訳、要約などを行います。
いわば、知識を蓄積し、それを利用してタスクをこなす**「優秀な図書館司書」**のような存在です。

一方で、o1は以下の点で異なります:

  1. 知識の活用: 単なる情報提供ではなく、学習した知識を効果的に活用
  2. 推論プロセス: 複雑な問題をどのように解決するかを考えながら進行

これは、人間が問題解決を行う際に、知識だけでなく論理的思考戦略的思考を用いるのと似ています。


o1の特性:経験豊富なコンサルタントのような能力

o1 は、いわば「経験豊富なコンサルタント」のように振る舞います。
以下の特徴を持っています:

  • 蓄積した知識を戦略的に活用
  • 多角的な視点から問題を分析
  • 最適な解決策を提案

この高度な推論能力こそが、他の言語モデルとは一線を画す、o1最大の特徴です。


では、次に o1 がどのような仕組みで推論を行うのか見ていきましょう。

🔑 o1の推論能力の鍵:「推論トークン」

o1は、ユーザーの質問を理解し、関連知識を検索した後、この 推論トークン を使って複数の思考ステップをシミュレートし、最適な解決策を導き出します。まるで人間が頭の中で思考を巡らせるように、一度で回答を出すのではなく、段階的に回答を生成していきます。


🧩 o1の推論プロセス

  1. 質問の理解: ユーザーの質問を分析し、意図を汲み取ります。
  2. 知識の検索: 関連する知識をデータベースから検索します。
  3. 推論トークンの生成: 思考プロセスを表現するための推論トークンを生成します。
  4. 思考のシミュレーション: 推論トークンを用いて、様々な可能性を検討します。
  5. 解決策の導出: 最適な解決策を導き出します。
  6. 回答の生成: 導き出された解決策に基づいて、回答を生成します。

🌟 o1-previewの驚異的な性能

人と同じような思考ができる賢いモデルということがわかったところで、高度な推論能力を備えた o1 シリーズの主力モデル「o1-preview」 の驚異的な性能を見てみましょう。


📊 理数系の驚異的なパフォーマンス

  • 数学オリンピック予選: 83% の正答率を記録
  • Codeforces: 上位 11% に入るスコアを達成

まるで優秀な数学者やプログラマーのように、複雑な問題を解き明かすことができます。


🎓 博士課程レベルの思考力

  • 推論能力は博士課程レベルに匹敵
  • 医療研究、物理学、ソフトウェア開発など、高度な専門知識が求められる分野で活躍

🔒 高い安全性

  • 悪用リスクを最小限に抑える設計
  • ジェイルブレイクテストでは 84/100 点 を獲得
🚨 ジェイルブレイクテストって何?

生成AIのジェイルブレイクテストは、AIモデルの安全性や倫理的制約を回避して、本来生成すべきでない内容を出力させようとする試みです。 o1が84/100 点を獲得したということは、一定の防御が成功していることを示しています。

⚠️ ただし、すべてのタスクで最適解ではない

o1は確かに高度な推論能力を持っていますが、すべてのタスクにおいて最適解というわけではありません。タスクに応じた適切なモデル選択が重要です。

✨ o1、o1-mini、そして gpt-4o の違いは?

🔍 gpt-4o

  • 特徴: 過去の経験や知識に基づいて回答を推測。
  • 制限: 必ずしも最適な答えを導き出すとは限りません。
  • 技術: Chain-of-Thought(思考の連鎖) を用いて問題解決。

🧠 o1

  • 特徴: 問題を具体的なステップに分解し、順序立てて解決策を提示。
  • 技術: Chain-of-Thought を自動化した "Reasoning model"(推論モデル)
  • 用途: 複雑な問題や多角的な思考を必要とするタスクで力を発揮。

🧩 o1-preview vs o1-mini

  • o1-preview: 汎用モデルとして、幅広いタスクに対応可能。
  • o1-mini: STEM(科学・技術・工学・数学)分野に特化したモデルで、高度な計算や科学技術系の質問応答が得意。

⚖️ 比較まとめ

  • o1シリーズ: STEM 分野で高度な推論力を発揮。
  • GPT-4o: 一般的な言語タスクでは、より優れたパフォーマンスを発揮する場合がある。

🔍 適切なモデル選択が重要

ユーザーは LLM の特性を理解し、目的に合ったモデルを選択する必要があります。将来的には、質問内容に応じて最適なモデルが自動的に選択されるようになるかもしれませんが、現時点では、適切なモデル選択が重要 です。

💡 捕捉事項

o1などの推論に強いモデルを活用する場合、AskDonaがプロンプトテンプレートで用意しているような構造化されたプロンプトを利用せずに、明確に目的やタスクを言葉で説明して送信する方がいいということを覚えておきましょう。